이항 분포
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.
1. 개요
이항 분포는 독립적인 시행에서 성공 횟수를 나타내는 확률 분포로, 성공 확률 p와 시행 횟수 n의 두 가지 모수를 갖는다. 이항 분포의 확률 질량 함수는 이항 계수를 사용하여 표현되며, 베르누이 분포는 이항 분포의 특수한 경우(n=1)이다. 이항 분포는 평균, 분산, 최빈값 등의 성질을 가지며, 정규 분포 및 푸아송 분포로 근사될 수 있다. 통계적 추론에서 모수 추정 및 신뢰 구간 계산에 활용되며, 조건부 이항 분포, 베르누이 분포, 포아송 이항 분포 등과 관련이 있다. 야코프 베르누이가 연구했으며, 블레즈 파스칼도 이항 계수를 연구했다.
이항 분포는 성공 확률이 ''p''인 독립적인 시행을 ''n''회 반복했을 때, 성공 횟수를 나타내는 확률 분포이다. 예를 들어, 주사위를 10회 던져서 숫자 6이 나오는 횟수는 ''n'' = 10, ''p'' = 1/6인 이항 분포를 따른다. 인구의 5%가 쌍꺼풀을 가지고 있을 때, 무작위로 100명을 선택하면 쌍꺼풀을 가진 사람의 수는 ''n'' = 100, ''p'' = 0.05인 이항 분포를 따른다.
이항 분포는 다음과 같은 성질을 갖는다.
2. 정의
0 ≤ ''p'' ≤ 1인 실수 ''p''와 자연수 ''n''에 대해, 0 이상의 정수 값을 가지는 확률 변수 ''X''를 정의할 수 있다. ''X''는 성공 횟수를 나타내므로, 0 ≤ ''X'' ≤ ''n''이다.
확률 질량 함수 ''f''(''x'')는 다음과 같이 주어진다.
:
''f''(''x'')는 확률이므로, 다음이 성립한다.
:
위 식에서 ''x''를 ''k''로 바꾸어 표현하면,
:
로 주어지며, 이때 ''X''는 이항 분포 B(''n'', ''p'')를 따른다고 하고, ''X'' ∼ B(''n'', ''p'')로 표기한다.[2]
여기서,
:
는 ''n''개에서 ''k''개를 선택하는 조합의 수, 즉 이항 계수를 나타낸다. 이항 분포라는 이름은 이 이항 계수에서 유래되었다.
위 식은 한 번의 시행에서 성공할 확률이 ''p''일 때, ''p''는 ''k''회 성공할 확률, (1 - ''p'')는 ''n'' - ''k''회 실패할 확률을 나타낸다. ''k''회의 성공은 ''n''회의 시행 중 어디에서든 발생할 수 있으므로, C가지의 발생 순서가 존재한다. 이들을 모두 곱하면 ''n''회 독립적인 시행에서 성공 횟수가 ''k''가 될 확률을 얻을 수 있다는 의미를 가진다.
''n'' = 1인 경우는 특별히 베르누이 분포라고 부른다.
2. 1. 확률 질량 함수
확률변수 $K$가 모수 $n$과 $p$를 갖는 이항 분포를 따를 때, $K$ ~ B($n$, $p$)라고 표기한다. $n$개의 독립적인 베르누이 시행(동일한 비율 $p$를 가짐)에서 정확히 $k$번 성공할 확률은 다음과 같은 확률 질량 함수로 주어진다.[2]
:
여기서 $k$ = 0, 1, 2, ..., $n$ 이고,
:
는 이항 계수이다. 이 공식은 다음과 같이 이해할 수 있다. $p^k (1-p)^{n-k}$는 $k$번의 "성공"과 나머지 $n-k$번의 "실패"로 구성된 $n$개의 독립적인 베르누이 시행의 시퀀스를 얻을 확률이다. 시행은 독립적이고 확률은 일정하게 유지되므로, $k$번의 성공(그리고 $n-k$번의 실패)을 가진 모든 $n$개의 시행 시퀀스는 동일한 확률로 발생한다(시퀀스 내 성공의 위치와 관계없이). 이러한 시퀀스는 개 있는데, 이항 계수 는 $n$번의 시행 중에서 $k$번의 성공 위치를 선택하는 방법의 수를 세기 때문이다. 이항 분포는 이러한 시퀀스 중 ''어떤'' 시퀀스를 얻을 확률에 관련되어 있으며, 이는 그들 중 하나($p^k (1-p)^{n-k}$)를 얻을 확률을 번 더해야 함을 의미하므로 가 된다.[2]
$n=1$인 경우는 특별히 베르누이 분포라고 부른다.
2. 2. 누적 분포 함수
누적 분포 함수는 다음과 같이 정규화된 불완전 베타 함수를 사용하여 나타낼 수 있다.[3]
:
이는 베타 분포의 누적 분포 함수와 동일하다.
또한, 누적 분포 함수는 다음과 같이 표현될 수도 있다.
:
여기서 는 보다 작거나 같은 가장 큰 정수이다.
3. 성질
:
여기서 는 제2종 스털링 수이다.
- 차 계승 모멘트 는 다음과 같이 간단하게 표현된다.
:
여기서 는 포흐아머 기호이다.
- 중앙값: 이항 분포의 중앙값을 구하는 단일 공식은 없으며, 고유하지 않을 수도 있다. 그러나 몇 가지 특별한 결과는 다음과 같다.
- ''np''가 정수이면, 평균, 중앙값 및 최빈값은 일치하며 ''np''와 같다.[10][11]
- 모든 중앙값 ''m''은 구간 내에 위치해야 한다.[12]
- 중앙값 ''m''은 평균에서 너무 멀리 떨어져 있을 수 없다: .[13]
- 이고 ''n''이 홀수일 때, 구간 내의 모든 수 ''m''은 이항 분포의 중앙값이다. 만약 이고 ''n''이 짝수이면, 는 유일한 중앙값이다.
- 꼬리 경계: 누적 분포 함수의 꼬리 부분에 대한 상한과 하한을 구할 수 있다. ''k'' ≤ ''np''를 만족하는 ''k''에 대해, 체르노프 경계를 사용하면 누적 분포 함수 (성공 횟수가 최대 ''k''일 확률)의 하위 꼬리에 대한 다음 경계를 얻을 수 있다.[15]
:
여기서 는 $a$-코인과 $p$-코인 간의 상대 엔트로피(또는 쿨백-라이블러 발산) (즉, $Bernoulli(a)$와 $Bernoulli(p)$ 분포 간)이다.
:
- 재생성: 동일한 확률 ''p''를 갖는 독립적인 이항 변수 ''X'' ~ B(''n'', ''p'')와 ''Y'' ~ B(''m'', ''p'')의 합은 다시 이항 변수가 되며, 그 분포는 ''Z'' = ''X'' + ''Y'' ~ B(''n'' + ''m'', ''p'')이다.[28]
3. 1. 평균, 분산, 최빈값
이항 분포 B(''n'', ''p'')를 따르는 확률 변수 ''X''의 기댓값 (평균)은 ''np''이고, 분산은 ''np''(1-''p'')이다.[5] 최빈값은 (''n'' + 1)''p'' 보다 작거나 같은 가장 큰 정수이다. 만약 (''n'' + 1)''p''가 정수라면, (''n'' + 1)''p'' - 1 과 (''n'' + 1)''p'' 모두 최빈값이다.[9]3. 2. 고차 모멘트
처음 6개의 중심 모멘트는 로 정의되며 다음과 같다.
비중심 모멘트는 다음을 만족한다.
:
:
일반적으로[6][7],
:
여기서 는 의 번째 내림 거듭제곱이다.
간단한 경계[8]는 고차 푸아송 모멘트를 통해 이항 모멘트를 경계 지음으로써 다음과 같이 얻을 수 있다.
:
이는 일 경우 가 와 최대 상수 인자만큼 차이가 난다는 것을 보여준다.
이항 분포를 따르는 확률 변수 의 차 모멘트 는 다음과 같이 다소 복잡한 형태로 표현된다.
:
여기서 는 제2종 스털링 수이다. 낮은 차수부터 살펴보면,
:
가 된다.
한편, 의 차 계승 모멘트 는
:
과 같이 간단하게 표현된다. 여기서 는 포흐아머 기호이다. 낮은 차수부터 살펴보면,
:
가 된다.
3. 3. 중앙값
일반적으로, 이항 분포의 중앙값을 구하는 단일 공식은 없으며, 고유하지 않을 수도 있다. 그러나 몇 가지 특별한 결과가 확립되었다.- ''np''가 정수이면, 평균, 중앙값 및 최빈값은 일치하며 ''np''와 같다.[10][11]
- 모든 중앙값 ''m''은 구간 내에 위치해야 한다.[12]
- 중앙값 ''m''은 평균에서 너무 멀리 떨어져 있을 수 없다: .[13]
- 중앙값은 ''m'' = round(''np'')이며, ≤ min일 때 고유하다 (''p'' = 1/2이고 ''n''이 홀수인 경우는 제외).[12]
- ''p''가 유리수일 때 (''p'' = 1/2이고 ''n''이 홀수인 경우는 제외) 중앙값은 고유하다.[14]
- 이고 ''n''이 홀수일 때, 구간 내의 모든 수 ''m''은 이항 분포의 중앙값이다. 만약 이고 ''n''이 짝수이면, 는 유일한 중앙값이다.
3. 4. 꼬리 경계
누적 분포 함수의 꼬리 부분에 대한 상한과 하한을 구할 수 있다.''k'' ≤ ''np''를 만족하는 ''k''에 대해, 호프딩 부등식을 이용하면 누적 분포 함수 (성공 횟수가 최대 ''k''일 확률)의 하위 꼬리에 대한 다음 상한을 얻을 수 있다.[15]
:
이 경계는 그다지 정확하지 않다. $p=1$의 경우, $F(k;n,p) = 0$ (고정된 $k$, $n$에 대해 $k
체르노프 경계를 사용하면 더 날카로운 경계를 얻을 수 있다.[15]
:
여기서 $D(a \parallel p)$는 $a$-코인과 $p$-코인 간의 상대 엔트로피(또는 쿨백-라이블러 발산) (즉, $Bernoulli(a)$와 $Bernoulli(p)$ 분포 간)이다.
:
점근적으로 이 경계는 상당히 정확하다.
안티-집중 경계라고 하는 꼬리 $F(k;n,p)$에 대한 '하한'을 얻을 수도 있다.[16] 스털링 근사를 사용하여 이항 계수를 근사하면 다음을 보일 수 있다.
:
이는 더 간단하지만 느슨한 경계를 의미한다.
:
$p=1/2$이고 짝수 $n$에 대해 $k \ge 3n/8$인 경우 분모를 상수로 만들 수 있다.[17]
:
$\Pr(X \ge k) = F(n-k;n,1-p) $이므로, 위 경계들은 $k \ge np$에 대한 누적 분포 함수의 상위 꼬리에 대한 경계로도 볼 수 있다.
3. 5. 재생성
만약 ''X'' ~ B(''n'', ''p'')와 ''Y'' ~ B(''m'', ''p'')가 동일한 확률 ''p''를 갖는 독립적인 이항 변수라면, ''X'' + ''Y''는 다시 이항 변수가 되며, 그 분포는 ''Z'' = ''X'' + ''Y'' ~ B(''n'' + ''m'', ''p'')이다.[28]이항 분포를 따르는 확률 변수 ''X'' ~ B(''n'', ''p'')는 ''n''개의 베르누이 분포를 따르는 확률 변수의 합으로 간주될 수 있다. 따라서 두 개의 이항 분포를 따르는 확률 변수 ''X'' ~ B(''n'', ''p'')와 ''Y'' ~ B(''m'', ''p'')의 합은 ''n'' + ''m''개의 베르누이 분포를 따르는 확률 변수의 합과 동일하며, 이는 ''Z'' = ''X'' + ''Y'' ~ B(''n'' + ''m'', ''p'')를 의미한다. 이는 덧셈 규칙을 사용하여 직접 증명할 수도 있다.
그러나 만약 ''X''와 ''Y''가 동일한 확률 ''p''를 갖지 않는다면, 합의 분산은 B(''n'' + ''m'', p (위에 줄표시))로 분포되는 이항 변수의 분산보다 작아진다. 여기서 p (위에 줄표시)는 p|p영어를 한국어로 번역한 표현이다.
이항 분포는 재생성을 갖는다. 즉, B(''n'', ''p'')를 따르는 확률 변수 X와 B(''m'', ''p'')를 따르는 확률 변수 Y가 서로 독립일 때, 확률 변수의 합 ''X'' + ''Y''는 이항 분포 B(''n'' + ''m'', ''p'')를 따른다.
4. 예시
일반적인 주사위를 10회 던져서 숫자 6이 나오는 횟수를 세는 경우, 이 분포는 ''n'' = 10이고 ''p'' = 1/6인 이항분포이다.[1]
아주 많은 인구의 5%가 쌍꺼풀이 있다고 가정하고, 100명을 무작위적으로 선택했을 때, 쌍꺼풀을 가진 사람의 수는 ''n'' = 100이고 ''p'' = 0.05인 이항분포를 따른다.[1]
공정한 동전을 6번 던져서 정확히 4번 앞면이 나올 확률은 다음과 같이 계산할 수 있다.[1]
:
전체 주민의 5%가 어떤 감염증에 감염되어 있고, 주민 수가 매우 많다고 가정할 때, 무작위로 500명을 추출하는 경우를 생각해 보자. 이때 추출된 집단 안에 감염자가 30명 이상 있을 확률을 이항분포를 통해 근사적으로 계산할 수 있다.[1]
500명 중 감염자 수는 전체 주민 중 감염자 분포(진정한 분포)와 비슷할 가능성이 높지만, 낮은 확률로 진정한 분포와 동떨어진 분포를 얻을 수도 있다. 예를 들어, 500명 중 환자 수가 500 × 0.05 = 25명일 확률은 24명이나 26명일 확률보다 클 것으로 예상된다. 이처럼 진정한 분포에 가까운 분포가 얻어질 확률이 더 크다는 것을 정량적으로 나타내는 분포가 이항분포이다.[1]
추출된 집단 안에 포함된 감염자 수를 확률 변수 ''X''로 나타낼 때, ''X''는 ''n'' = 500, ''p'' = 0.05인 이항분포에 근사적으로 따른다. 따라서 감염자가 30명 이상 있을 확률은 Pr[''X'' ≥ 30]으로 표현된다.[1]
5. 통계적 추론
이항 분포는 통계학에서 자주 사용되는 확률 분포로, 특정 횟수의 독립적인 시행에서 성공 확률이 일정할 때 성공 횟수의 분포를 나타낸다. 이항 분포의 모수(parameter)를 추정하고 신뢰 구간을 구하는 방법은 통계적 추론의 중요한 부분이다.
- 모수 추정: 이항 분포의 모수 ''p'' (성공 확률)를 추정하는 방법은 다음과 같다.
- 최대 우도 추정량: 최대 우도 추정량과 적률법을 사용한다. 이 방법으로 구한 추정량은 불편 추정량이며, 최소 분산 불편 추정량을 갖는다.
- 베이즈 추정량: 베타 분포를 켤레 사전 분포로 사용하여 베이즈 추정량을 구한다. 표준 균등 분포를 비정보적 사전 분포로 사용하면, 사후 평균 추정량은 이며, 이는 피에르시몽 라플라스가 도입한 라플라스의 규칙이다. 제프리스 사전 분포를 사용하면, 추정량은 이다.[19]
- 신뢰 구간: 모수 p에 대한 신뢰 구간을 구하는 방법은 다음과 같다.[21]
- Wald 방법: 교과서에서 주로 소개되지만, 편향이 가장 크다.[21]
- Agresti-Coull 방법: Wald 방법보다 개선되었으며, 특정 조건에서 더 정확하다.[22]
- Arcsine 방법: 큰 표본에서도 평균의 분포가 정규 분포를 따르지 않는 문제를 해결한다.
- Wilson (score) 방법: Arcsine 방법과 같이, 큰 표본에서도 정확한 신뢰 구간을 제공한다.[27]
- 클로퍼-피어슨 방법: 가장 보수적인 방법이다.[21]
각 방법은 장단점이 있으므로, 상황에 맞게 선택해야 한다. 예를 들어, 매우 드문 사건이나 작은 표본의 경우 베이즈 추정량이나 세 개의 규칙을 통해 얻은 신뢰 구간 상한을 고려할 수 있다.[20]
5. 1. 모수 추정
이항 분포에서 모수 ''p''를 추정하는 여러 방법은 다음과 같다.표준 균등 분포를 비정보적 사전 분포로 사용하는 경우, 사후 평균 추정량은 이며, 이는 피에르시몽 라플라스가 도입한 라플라스의 규칙이다.
제프리스 사전 분포를 사용하면, 추정량은 이다.[19]
매우 드문 사건과 작은 ''n''으로 ''p''를 추정할 때 (예: ''x'' = 0인 경우), 표준 추정량을 사용하면 이 되는데, 이는 때때로 비현실적이다. 이러한 경우, 베이즈 추정량 를 사용하거나, 세 개의 규칙을 사용하여 얻은 신뢰 구간의 상한 을 사용할 수 있다.[20]
5. 1. 1. 최대 우도 추정량
n영어이 알려진 경우, 파라미터 p영어는 성공 비율을 사용하여 추정할 수 있다.:
이 추정량은 최대 우도 추정량과 적률법을 사용하여 구한다. 이 추정량은 편향되지 않고, 최소 분산 불편 추정량을 갖는다는 것이 Lehmann–Scheffé 정리를 사용하여 증명되었다. 왜냐하면 이것은 최소 충분 통계량과 완전 통계량 (즉, x영어)을 기반으로 하기 때문이다. 또한 확률 및 MSE 모두에서 일치 추정량이다. 이 통계량은 중심 극한 정리 덕분에 점근 분포가 정규 분포를 따르는데, 이는 베르누이 표본에 대한 평균을 구하는 것과 같기 때문이다. 분산은 이며, 이는 Wald의 신뢰 구간 등 여러 방식으로 사용되는 속성이다.[18]
5. 1. 2. 베이즈 추정량
베타 분포를 켤레 사전 분포로 사용하여 베이즈 추정량을 구할 수 있다. 일반적인 를 사전 분포로 사용하면, 사후 평균 추정량은 다음과 같다.[18]:
베이즈 추정량은 점근적으로 효율적이며, 표본 크기가 무한대()에 가까워질수록 MLE 해에 접근한다. 베이즈 추정량은 편향되어 있으며 (얼마나 편향되었는지는 사전 분포에 따라 다름), 허용 가능하고 확률적으로 일치 추정량이다. 베타 분포를 사용한 베이즈 추정량은 Thompson sampling에 사용할 수 있다.
표준 균등 분포를 비정보적 사전 분포로 사용하는 특수한 경우, 일 때, 사후 평균 추정량은 다음과 같다.
:
이 방법은 라플라스의 규칙이라고 불리며, 18세기 피에르시몽 라플라스에 의해 도입되었다.
제프리스 사전 분포에 의존할 경우, 사전 분포는 이고,[19] 이로 인해 다음 추정량이 도출된다.
:
5. 2. 신뢰 구간
이항 비율 신뢰 구간에서 자세한 내용을 확인할 수 있다.모수 p에 대한 신뢰 구간을 구하는 여러 방법이 제안되었다.[21]
신뢰 구간 방정식에 사용되는 변수는 다음과 같다.
- ''n''1은 총 ''n''번의 시도 중 성공 횟수이다.
- 는 성공 비율이다.
- 는 목표 오차율 에 해당하는 표준 정규 분포의 분위수(프로빗)이다. 예를 들어, 95% 신뢰 수준의 경우 오차 = 0.05이므로 = 0.975이고 = 1.96이다.
클로퍼-피어슨 방법은 가장 보수적인 방법이다.[21]
5. 2. 1. Wald 방법
Wald영어 방법은 교과서에서 흔히 추천되지만, 가장 편향된 방법이다.[21]:
- ''n''1은 총 ''n''번의 시도 중 성공 횟수이다.
- 는 성공 비율이다.
- 는 목표 오차율 에 해당하는 표준 정규 분포의 분위수(즉, 프로빗)이다. 예를 들어, 95% 신뢰 수준의 경우 오차 = 0.05이므로 = 0.975이고 = 1.96이다.
의 연속성 보정을 추가할 수 있다.
5. 2. 2. Agresti-Coull 방법
Agresti-Coull 방법은 다음 공식을 사용하여 이항 분포의 신뢰 구간을 추정한다.[22]:
여기서 이다.
- n1은 총 n번의 시도 중 성공 횟수이다.
- 는 목표 오차율 에 해당하는 표준 정규 분포의 분위수(프로빗)이다.
- 예를 들어, 95% 신뢰 수준의 경우 오차 = 0.05이므로 = 0.975이고 = 1.96이다.
이 방법은 이고 일 때 잘 작동한다.[23]
5. 2. 3. Arcsine 방법
매우 큰 ''n'' 값에서도 평균의 실제 분포는 상당히 비정규적이다.[21] 이러한 문제 때문에 신뢰 구간을 추정하는 여러 가지 방법이 제안되었다.아래 신뢰 구간에 대한 방정식에서 변수는 다음과 같은 의미를 갖는다.
- ''n''1은 총 ''n''번의 시도 중 성공 횟수이다.
- 는 성공 비율이다.
- 는 목표 오차율 에 해당하는 표준 정규 분포의 분위수(즉, 프로빗)이다. 예를 들어, 95% 신뢰 수준의 경우 오차 = 0.05이므로 = 0.975이고 = 1.96이다.
:
5. 2. 4. Wilson (score) 방법
매우 큰 ''n'' 값에서도 평균의 실제 분포는 상당히 비정규적이다.[21] 이러한 문제 때문에 신뢰 구간을 추정하는 여러 가지 방법이 제안되었다.윌슨 점수 구간은 다음 공식을 통해 구할 수 있다.[27]
:
위 공식에서 사용된 변수의 의미는 다음과 같다.
- 는 성공 비율 ()이다.
- ''n''1은 총 ''n''번의 시도 중 성공 횟수이다.
- 는 목표 오차율 에 해당하는 표준 정규 분포의 분위수 (즉, 프로빗)이다.
단, 위 공식 표기법은 이전 공식과 두 가지 측면에서 다르다.[26]
- 는 '표준 정규 분포의 번째 분위수'라는 일반적인 의미를 가진다.
- 두 경계를 정의하기 위해 플러스-마이너스를 사용하지 않는다. 대신, 를 사용하여 하한을 얻거나 를 사용하여 상한을 얻을 수 있다.
예를 들어, 95% 신뢰 수준의 경우 오차 = 0.05이므로 = 0.975이고 = 1.96이다. 95% 신뢰 수준의 하한을 구하려면 을 사용하고, 상한을 구하려면 을 사용한다.
6. 관련 분포
베르누이 분포는 이항 분포에서 시행 횟수(''n'')가 1인 특수한 경우이다.[31] B(1, p)는 Bernoulli(p)와 같다. 반대로, 이항 분포 B(''n'', ''p'')는 각각 동일한 성공 확률 ''p''를 갖는 ''n''개의 독립적인 베르누이 시행, Bernoulli(p)의 합의 분포로 볼 수 있다.[31]
이항 분포는 ''n''개의 독립적인 비동일 베르누이 시행 B(''p''''i'')의 합의 분포인 포아송 이항 분포의 특수한 경우이다.[29]
6. 1. 조건부 이항 분포
''X'' ~ B(''n'', ''p'')이고, ''X''가 주어졌을 때 ''Y''의 조건부 분포가 ''Y'' | ''X'' ~ B(''X'', ''q'')라면, ''Y''는 ''Y'' ~ B(''n'', ''pq'')인 이항 분포를 따른다.예를 들어, 바구니 ''UX''에 ''n''개의 공을 던지고, 맞은 공을 가져다가 다른 바구니 ''UY''에 던진다고 가정해보자. ''p''가 ''UX''를 맞힐 확률이라면 ''X'' ~ B(''n'', ''p'')는 ''UX''를 맞힌 공의 개수이다. ''q''가 ''UY''를 맞힐 확률이라면 ''UY''를 맞힌 공의 개수는 ''Y'' ~ B(''X'', ''q'')이므로, 결국 ''Y'' ~ B(''n'', ''pq'')이다.
6. 2. 베르누이 분포
베르누이 분포는 이항 분포에서 시행 횟수(n)가 1인 특수한 경우이다.[31] 즉, B(1, p)는 Bernoulli(p)와 같다. 반대로, 이항 분포 B(n, p)는 각각 동일한 성공 확률 p를 갖는 n개의 독립적인 베르누이 시행, Bernoulli(p)의 합의 분포로 볼 수 있다.[31]6. 3. 포아송 이항 분포
이항 분포는 ''n''개의 독립적인 비동일 베르누이 시행 B(''p''''i'')의 합의 분포인 포아송 이항 분포의 특수한 경우이다.[29]6. 4. 두 이항 분포의 비율
X영어 ~ B(''n'', ''p''1)이고 Y영어 ~ B(''m'', ''p''2)가 독립적이라고 가정할 때, ''T'' = (''X''/''n'') / (''Y''/''m'')라고 하면, log(''T'')는 평균 log(''p''1/''p''2)와 분산 ((1/''p''1) − 1)/''n'' + ((1/''p''2) − 1)/''m''을 갖는 근사적 정규 분포를 따른다.[30] 이 결과는 1978년 카츠(Katz)와 공동 연구자들에 의해 처음으로 도출되었다.[30]7. 근사
이 충분히 크면 이항 분포의 왜곡은 그다지 크지 않다. 이 경우, 에 대한 적절한 근사는 정규 분포로 주어지며, 다음과 같이 표현된다.
:
이 기본 근사는 연속성 보정을 사용하여 개선할 수 있다. 기본 근사는 일반적으로 이 증가함에 따라 (최소 20) 개선되며, 가 0이나 1에 가깝지 않을 때 더 정확하다.[32]
이항 분포는 정규 분포나 푸아송 분포 등으로 근사할 수 있으며, 이를 통해 계산 노력을 줄일 수 있다. 그러나 각 근사에는 적용 조건이 존재하며, 이 조건들을 만족하는지, 그리고 근사로 인해 발생하는 오차가 허용 가능한 범위 내에 있는지 확인해야 한다.
특히, 이항 분포의 모비율에 대한 신뢰 구간을 구할 때는 사용되는 근사와 변수 값에 따라 오차가 발생할 수 있으므로 주의해야 한다.[47]
7. 1. 정규 분포 근사
n영어이 충분히 크고 p영어가 0이나 1에 가깝지 않으면, 이항 분포는 정규 분포로 근사할 수 있다. 이를 드 무아브르-라플라스 정리라고 한다. 일반적으로 np영어와 n(1-p)영어가 모두 5보다 크면 정규 근사가 적절하다고 알려져 있다.[33][34]- 이 충분히 크면 분포의 왜곡은 크지 않다. 이때, (이항 분포)는 정규 분포 로 근사할 수 있다.
- 연속성 보정을 사용하면 더 정확한 근사가 가능하다.
- 정규 근사가 적절한지 판단하는 다양한 경험 법칙이 존재한다.
- 한 가지 규칙[32]은 에 대해 왜도의 절댓값이 0.3 미만인 경우이다.
- 더 강력한 규칙은 평균에서 3 표준 편차 이내의 모든 값이 가능한 값의 범위 (0, n) 안에 있는 경우이다. 즉, 이 조건은 및 와 동치이다.
- 또 다른 규칙은 와 가 모두 5보다 크거나 같아야 한다는 것이다.[33][34] (소스에 따라 9를 사용하기도 한다.)
예를 들어, 이항 확률 변수 에 대해 을 계산할 때, 정규 근사를 사용하면 로 근사할 수 있다. (는 정규 근사로 주어진 분포)
이러한 정규분포 근사는 아브라함 드 무아브르가 1738년 확률론에서 처음 소개했으며, 중심 극한 정리의 특수한 경우로 볼 수 있다.[35]
예를 들어, 대규모 모집단에서 명을 무작위로 추출하여 특정 진술에 동의하는지 묻는 경우, 동의하는 사람들의 비율은 표본에 따라 달라지지만, 반복 추출 시 그 비율은 평균 (모집단의 참 비율), 표준 편차 인 정규 분포를 따르게 된다.
7. 2. 푸아송 분포 근사
n이 크고 p가 작아 np가 적당한 크기이면, λ = np를 모수로 하는 푸아송 분포가 이항 분포의 근사값을 제공한다. 즉, n이 충분히 클 때, 기댓값 λ = np라고 하면,:
가 성립한다(자세한 내용은 푸아송 분포 항목 참조). 이 결과는 수학자 시메옹 드니 푸아송이 1837년 저서 Recherches sur la probabilite des jugements프랑스어 (Researches on the Probabilities영어)에서 제시했으며, 이를 '''푸아송의 극한 정리'''라고 부른다.[36]
일반적으로 n ≥ 20이고 p ≤ 0.05 이거나, n ≥ 100이고 np ≤ 10 이면 푸아송 근사가 적합하다고 알려져 있다.[37][38][39]
푸아송 근사의 정확성에 대해서는 Novak,[40] 4장을 참조하고 그 안의 참고 문헌을 참고하라.
8. 역사
이항 분포는 야코프 베르누이가 연구하였다. 베르누이는 성공 확률이 p|영어 = r|영어 / (r|영어 + s|영어)인 경우를 고려했는데, 여기서 r|영어과 s|영어는 양의 정수이다. 블레즈 파스칼은 이전에 p|영어 = 1/2인 경우를 고려하여, 현재 파스칼의 삼각형으로 알려진 이항 계수를 표로 만들었다.[45]
참조
[1]
서적
Audit Analytics: Data Science for the Accounting Profession
Springer
[2]
서적
An Introduction to Probability Theory and Its Applications
https://archive.org/[...]
Wiley
[3]
서적
Introduction to Probability and Random Variables
https://archive.org/[...]
McGraw-Hill
[4]
논문
The Relationship Between the Binomial and F Distributions
[5]
웹사이트
Proof Wiki
https://proofwiki.or[...]
[6]
논문
Closed-Form Expressions for the Moments of the Binomial Probability Distribution
https://www.jstor.or[...]
[7]
논문
A probabilistic approach to the moments of binomial random variables and application
https://www.tandfonl[...]
[8]
논문
Sharp and Simple Bounds for the raw Moments of the Binomial and Poisson Distributions
[9]
웹사이트
Finding mode in Binomial distribution
https://math.stackex[...]
2019-01-07
[10]
논문
Über den Median der Binomial- and Poissonverteilung
[11]
간행물
Binomial averages when the mean is an integer
The Mathematical Gazette
2010-07
[12]
논문
Mean, Median and Mode in Binomial Distributions
[13]
논문
The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions
[14]
논문
Uniqueness of a Median of a Binomial Distribution with Rational Probability
[15]
논문
Tutorial on large deviations for the binomial distribution
[16]
서적
Information Theory
https://archive.org/[...]
Dover Publications
1990
[17]
웹사이트
The Probabilistic Method
https://www.cs.cmu.e[...]
[18]
논문
Estimating the Parameters of the Beta-Binomial Distribution
http://journals.sage[...]
1979
[19]
웹사이트
Jeffreys prior for binomial likelihood
https://stats.stacke[...]
2019-03-04
[20]
논문
On the estimation of binomial success probability with zero occurrence in sample
[21]
논문
Interval Estimation for a Binomial Proportion
http://www-stat.whar[...]
2015-01-05
[22]
논문
Approximate is better than 'exact' for interval estimation of binomial proportions
http://www.stat.ufl.[...]
2015-01-05
[23]
웹사이트
Agresti-Coull Interval Method
https://pellucid.atl[...]
2021-05-18
[24]
웹사이트
Confidence intervals
https://www.itl.nist[...]
2021-05-18
[25]
서적
Proceedings of the Conference CompStat 2002
[26]
논문
Probable inference, the law of succession, and statistical inference
http://psych.stanfor[...]
2015-01-05
[27]
서적
Engineering Statistics Handbook
NIST/Sematech
2017-07-23
[28]
서적
A Modern Introduction of Probability and Statistics
https://www.springer[...]
Springer-Verlag London
2005
[29]
논문
On the number of successes in independent trials
http://www3.stat.sin[...]
[30]
논문
Obtaining confidence intervals for the risk ratio in cohort studies
[31]
웹사이트
Lectures on Probability Theory and Mathematical Statistics
https://www.statlect[...]
2017-12-18
[32]
서적
Statistics for experimenters
https://archive.org/[...]
Wiley
[33]
서적
H2 Mathematics Handbook
Educational Publishing House
[34]
웹사이트
6.4: Normal Approximation to the Binomial Distribution - Statistics LibreTexts
https://stats.libret[...]
2023-10-07
[35]
웹사이트
"7.2.4. Does the proportion of defectives meet requirements?"
http://www.itl.nist.[...]
NIST/SEMATECH
[36]
뉴스
12.4 – Approximating the Binomial Distribution {{!}} STAT 414
https://online.stat.[...]
2023-10-08
[37]
서적
H2 mathematics handbook
Educational publishing house
[38]
간행물
6.3.3.1. Counts Control Charts
http://www.itl.nist.[...]
NIST/SEMATECH
[39]
웹사이트
The Connection Between the Poisson and Binomial Distributions
https://mathcenter.o[...]
2023-10-08
[40]
서적
Extreme value methods with applications to finance
CRC/ Chapman & Hall/Taylor & Francis
[41]
서적
Information Theory, Inference and Learning Algorithms
Cambridge University Press; First Edition
[42]
웹사이트
Beta distribution
https://www.statlect[...]
[43]
서적
Non-Uniform Random Variate Generation
http://luc.devroye.o[...]
Springer-Verlag
[44]
논문
Binomial random variate generation
[45]
서적
A History of Mathematics: An Introduction
Addison-Wesley
[46]
간행물
A multifractal model of asset returns. 3.2 The Binomial Measure is the Simplest Example of a Multifractal
[47]
웹사이트
EBCIC: Exact Binomial Confidence Interval Calculator
https://kazkobara.gi[...]
[48]
서적
確率論及統計論
http://ebsa.ism.ac.j[...]
[49]
웹사이트
prob 3 <
[50]
논문
The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions
본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.
문의하기 : help@durumis.com